#Rubin GPU
Rubin曝光!2000萬張GPU出貨!輝達鏈液冷將迎來爆發需求
01.輝達:預計18個月出貨2000萬高端GPU,液冷二次側有望迎來2000億需求昨天,輝達GTC大會,黃仁勳再次對AI的市場趨勢做了詳細分析,同時也發佈了輝達的系列產品,包括未來的架構和量子計算,站在全場C位的,還是首次亮相下一代Vera Rubin的。這是輝達第三代NVLink 72機架級超級電腦,徹底實現了無線纜連接。目前,Vera Rubin超級晶片已在實驗室完成測試,預計明年10月可以投產。輝達CEO黃仁勳在GTC大會上預計,未來六個季度業務規模將達5000億美元,將出貨2000萬塊Blackwell和Rubin圖形處理器(GPU)。黃仁勳還表示,Blackwell在亞利桑那州“全面投入生產”。本次GTC大會,輝達也首次曝光了其Rubin伺服器和交換機的液冷架構,雖然沒有很清楚的爆炸圖,但是從現場圖看,其液冷架構設計的更加複雜,更加緊湊,液冷覆蓋佔比100%,光模組,SSD部分也做了銅冷板覆蓋,採用的不鏽鋼波紋管數量也愈加上升。從液冷市場規模來看來看,未來18個月輝達將會出貨2000萬塊Blackwell和Rubin GPU,按照NV72架構來算,預計將會出貨278000個整機櫃,按照機櫃10萬美金的液冷價值佔比(Rubin架構可能佔比更高),預計未來18個月,輝達生態二次液冷需求將達到保守估計278億美金需求,也就是2000億人民幣,體量規模巨大,對液冷市場是強利多!Rubin整機櫃架構,結構也變得更加複雜,特別是電源部分有重大更新,Power rack將成為一個大趨勢。02.市場預期良好,算力基礎設施廠商受益台北時間10月29日晚間,輝達股價高開高走,盤中漲幅一度突破5%,成為首家市值突破5兆美元的上市公司。同時昨天多家A股上市公司已在全球算力產業鏈上充分佈局,或將受益於AI算力競賽加劇以及全球AI基礎設施的持續擴容。10月29日晚,工業富聯披露2025年第三季度報告。雲端運算業務方面,前三季度,公司雲端運算業務營業收入較上年同期增長超過65%,第三季度單季同比增長超過75%,主要受益於超大規模資料中心用AI機櫃產品的規模交付及AI算力需求的持續旺盛。特別是雲服務商業務表現亮眼,前三季度營業收入佔比達雲端運算業務的70%,同比增長超過150%,第三季度單季同比增長逾2.1倍。其中,雲服務商GPU AI伺服器前三季度營業收入同比增長超過300%,第三季度單季環比增長逾90%、同比增長逾5倍。通用伺服器出貨亦保持穩健,整體雲端運算業務營收結構持續最佳化。工業富聯相關負責人此前在投資者調研中表示,公司對下半年AI伺服器業務持樂觀態度,除GB200持續放量外,GB300亦將逐步進入實質出貨階段。GB300在明年有望成為公司AI伺服器業務盈利的重要支撐點。交換機方面,公司預期800G產品會是2025-2026年的出貨主力,有望成為交換機業務的核心增長引擎。同時,公司與多家客戶協同開發的CPO(共封裝光學)新一代ASIC及1.6T交換機也在推進當中,後續將逐步推向市場。光通訊與高速連接方面,中際旭創可為雲資料中心客戶提供400G、800G和1.6T等高速光模組,為電信裝置商客戶提供5G前傳、中傳和回傳光模組以及應用於骨幹網和核心網傳輸光模組等高端整體解決方案。10月26日,公司在互動易平台上表示,其1.6T產品正在持續起量。新易盛亦致力於高性能光模組的研發、生產和銷售,產品服務於人工智慧叢集(AI Cluster)、雲資料中心、資料通訊、5G無線網路、電信傳輸、固網接入等領域的國內外客戶。目前,新易盛已經完成了滿足IEEE標準要求的全系列1.6T產品的開發,支援CMIS5.0及以上版本,可滿足不同客戶的應用需求,並啟動預研下一代3.2T產品。在PCB/載板方面,勝宏科技的主要產品覆蓋剛性電路板(多層板和HDI為核心)、柔性電路板(單雙面板、多層板、剛撓結合板)全系列,廣泛應用於人工智慧、新一代通訊技術、巨量資料中心等領域。公司半年報顯示,勝宏科技已成為國內外眾多頭部科技企業的核心合作夥伴,具備100層以上高多層板製造能力,是全球首批實現6階24層HDI產品大規模生產,及8階28層HDI與16層任意互聯(Any-layer)HDI技術能力的企業,同時加速佈局下一代產品,支援最前沿人工智慧產品及自動駕駛平台。散熱與電源方面,英維克已推出全鏈條液冷解決方案,從冷板、快速接頭、Manifold、CDU、機櫃,到SoluKing長效液冷工質、管路、冷源等“端到端”的產品覆蓋,從伺服器製造工廠,到資料中心運行現場的“廠到場”交付場景覆蓋。近年來,英維克已為字節跳動、騰訊、阿里巴巴、秦淮資料、萬國資料、資料港、中國移動、中國電信等使用者的大型資料中心提供了大量製冷產品及系統。麥格米特則具備高功率高效率網路電源技術及產品研發與供應能力,可支援通訊、交換機、通用伺服器、AI伺服器等多項場景應用。近年來,公司網路電源業務始終與國際頭部客戶保持緊密合作關係,持續獲得了愛立信(Ericsson)、思科(Cisco)、瞻博網路(Juniper)、阿里斯塔(Arista)、智邦科技(Accton)等頭部國際客戶的多項項目需求與訂單。(零氪1+1)
「一頁紙」講透產業趨勢之:Rubin CPX
這是一個非常「有錢景」的方向,我會借助 AlphaEngine 的幫助,幫你跨越產業趨勢研究的資訊鴻溝,每天挖掘一個財富密碼。今天的主角是:Rubin CPX,AI產業變革下一個核心驅動力。點選下方▶️按鈕收聽👇👇(1)Rubin CPX:AI產業進入“長上下文時代”的里程碑輝達近日發佈了一款專為長上下文場景設計的GPU——Rubin CPX。這款晶片旨在顯著提升AI推理效率,尤其適用於程式設計、視訊生成等需要處理超長上下文窗口的應用領域。Rubin CPX計畫於2026年底正式上市,市場定位是專為處理百萬級token長上下文AI推理而設計的關鍵基礎設施,旨在將AI算力正式推向Exascale(百億億次)時代。該產品的市場吸引力已得到初步驗證,包括Cursor(AI程式設計)、Runway(視訊生成)及Magic(AI程式設計)在內的多家前沿AI企業已率先採用該技術。Rubin CPX的推出可視為推動AI產業進入“長上下文時代”的里程碑事件,其核心價值在於通過架構創新為AI推理的規模化部署掃清了經濟性與效率障礙,為長上下文AI應用的商業化落地提供了高性價比的基礎設施。基於Rubin CPX的顛覆性設計,我們預見AI產業鏈將迎來深刻變革,一個全新的AI應用紀元正拉開序幕。1)上游供應鏈將迎來結構性增長:能夠滿足Rubin CPX嚴苛技術要求的供應商將獲得顯著優勢。例如,在PCB領域,對40層以上、採用M9級材料的高階伺服器板及HDI技術的需求將激增,為具備相關技術儲備的頭部廠商帶來確定性訂單。2)下游AI應用範式將被重塑:百萬級token的處理能力將徹底改變AI應用形態,AI編碼助手將從簡單的程式碼補全工具進化為能夠理解和重構整個複雜軟體項目的“AI架構師”,而視訊生成、藥物研發和企業知識庫問答等領域也將因上下文長度的突破而開啟新的可能性。(2)Rubin CPX的核心技術創新:解耦推理Rubin CPX的核心創新在於其獨特的解耦推理(Decoupled Inference)技術,該技術首次將大語言模型的推理流程從物理上分解為兩個獨立的階段:上下文處理(Prefill/Context)和生成(Decode/Generation)。傳統架構在單一硬體上執行這兩個特性迥異的任務,導致資源錯配與效率瓶頸。解耦架構則為每個階段匹配專用硬體:1)上下文處理階段:此階段計算密集(Compute-Intensive),需要大規模平行處理能力來消化海量輸入。Rubin CPX專為此設計,採用“胖計算、瘦頻寬”的理念,使用GDDR7來最大化算力利用率。2)生成階段:此階段頻寬密集(Bandwidth-Intensive),每個Token的生成都極度依賴記憶體訪問速度。該任務由標準的、配備高頻寬記憶體(HBM)的Rubin GPU(如R200)承擔,確保低延遲輸出。通過這種專用化分工,解耦推理架構實現了對計算和記憶體資源的精準調配,從根本上解決了傳統同構架構的效率天花板問題。Rubin CPX的解耦推理架構在處理流程、硬體瓶頸和記憶體策略上,與以GB300為代表的傳統同構架構形成了鮮明對比,其專用化設計帶來了革命性優勢。*註:由FinGPT Agent作表,原表請登錄AlphaEngine(3)Rubin CPX的關鍵性能參數Rubin CPX作為NVIDIA首款專為海量上下文AI推理設計的CUDA GPU,其單晶片及其組成的Vera Rubin NVL144 CPX平台在算力、記憶體、功耗及成本效益上均實現了對現有架構的顛覆性突破。以下是其核心技術規格與上一代旗艦GB300 NVL72的量化對比分析:*註:由FinGPT Agent作表,原表請登錄AlphaEngine從經濟效益的角度來看,Rubin CPX相比上一代架構,將帶來以下幾點變化:性能與成本的極致最佳化:Rubin CPX通過採用單片式設計,成功規避了當前先進封裝領域面臨的CoWoS產能瓶頸,這不僅保障了其在2026年的規模化量產能力,更帶來了顯著的成本優勢。其生產成本僅為同期旗艦訓練晶片R200的25%,卻能實現其60%的計算能力。同時,選用成本較HBM低50%以上的GDDR7視訊記憶體,進一步強化了其在推理市場的經濟性。平台級性能的指數級躍升:Vera Rubin NVL144 CPX平台通過異構協同,將AI性能推向了前所未有的8 EFLOPS(NVFP4精度),相較於上一代GB300 NVL72系統實現了7.5倍的性能飛躍。特別是在大模型推理的關鍵瓶頸——注意力機制處理上,其速度提升了3倍,這意味著處理百萬token級長上下文的效率和可行性得到了根本性改善。卓越的投資回報:基於其顛覆性的性能和成本結構,Rubin CPX展現出極高的經濟效益。據測算,在規模化營運下,其投資回報率(ROI)可高達30至50倍。具體而言,每1億美元的資本投入,預計可產生高達50億美元的token服務收益,這為資料中心和雲服務商提供了極具吸引力的TCO(總擁有成本)模型,預示著其將快速滲透至長上下文推理市場。(4)Rubin CPX對AI全產業鏈的深遠影響Rubin CPX的推出對AI產業鏈帶來了全方位的技術革新,催生了大量投資機遇,這裡我從“資料中心與液冷”、“PCB及原材料”、“AI應用”這三個角度展開。1)資料中心與液冷:Rubin CPX正強力推動伺服器架構向高密度、模組化的分解式設計(Disaggregated Design)演進,重塑AI計算基礎設施。其核心體現於Vera Rubin NVL144 CPX平台,該平台在單機架內實現了144個 Rubin CPX、144個Rubin GPU和36個Vera CPU的超高密度整合,樹立了行業算力密度的新標竿。這種分解式架構通過硬體專用化,將推理流程中計算密集的上下文處理(Prefill)與記憶體頻寬密集的生成(Decoding)階段分離,分別由CPX和標準Rubin GPU高效執行,實現了計算資源的精準匹配與利用率最大化。與此同時,Rubin CPX單晶片高達800W的功耗對資料中心的散熱與電源系統構成了嚴峻挑戰,傳統風冷方案已無法滿足散熱需求,這使得先進液冷技術(如直接液體冷卻DLC)的規模化普及成為必然趨勢,以確保系統穩定運行並最佳化能源效率(PUE)。巨大的單機架功耗需求也倒逼電源管理系統向更高效率和更高功率密度演進。這不僅涉及伺服器內部的電源架構,也涵蓋了從機架配電單元(PDU)到整個資料中心供電鏈路的全面升級,以支援未來AI叢集的龐大能源消耗。2)PCB及上游原材料:Rubin CPX技術規格的躍升正驅動上游關鍵材料需求的確定性放量。為滿足PCIe Gen 6等高速訊號傳輸的完整性要求,M9等級的超低損耗覆銅板材料已成為剛性需求。產業鏈向上游追溯,為實現超低損耗目標,石英布、 HVLP(極低輪廓)銅箔等高端材料的應用將從利基市場走向規模化普及。此外,承載Rubin CPX晶片本身的PCB預計將採用HDI(高密度互連)技術,進一步提升了PCB的設計複雜度和製造門檻,並帶來純粹的增量市場。這一趨勢已在頭部廠商的資本支出計畫中得到印證。以臻鼎為代表的PCB龍頭廠商規劃在2025-2026年投入的資本支出中,高達50%將明確用於高 階AI伺服器PCB的產能擴張,為即將到來的材料需求激增提前佈局。3)下游AI應用Rubin CPX將對AI應用帶來深遠的影響。首先,超長上下文將成為“標配”。128 GB GDDR7 + 30 PFLOPS NVFP4 的專用算力,讓單卡即可一次性載入 >1 M token 的程式碼或 1 小時視訊,無需再靠分片、滑動窗口等“折中”方案,直接把“整庫級”程式碼理解、長視訊連貫生成推向實用。其次,推理成本驟降,催生新商業模式。與旗艦 GB300 NVL72 相比,同樣長上下文任務性能最高提升 6.5 倍,而硬體成本更低(GDDR7 替代昂貴 HBM)。根據輝達官方測算,1 億美元新裝置可帶來 50 億美元 token 收益,ROI 達 30–50 倍,為 SaaS 平台按“百萬 token 幾分錢”收費提供了利潤空間。再次,“整庫級”AI 應用將成為主流。比如在Coding領域,Cursor、Magic等已計畫把整倉程式碼塞進模型,實現跨檔案重構、庫級問答,程式設計助手從“補全”升級為“架構師”。在視訊領域,Runway 等可在單卡完成 60 min 1080p 視訊生成,無需分段,保證情節、角色一致性。在科研/法律/金融等領域,百萬級 token 的論文、判例、財報一次性載入,多步推理即可在分鐘級完成,長文深度問答、自動研報進入可商用階段。一輪新的AI技術革命,正在滾滾而來。 (Alpha Engineer)
算力怪獸!NVIDIA Rubin CPX及液冷伺服器發佈!
9月10日輝達又放AI計算大招,推出專為長上下文推理和視頻生成應用設計的新型專用GPU——NVIDIA Rubin CPX。Rubin CPX基於NVIDIA Rubin架構建構,採用經濟高效的單晶片設計,配備128GB GDDR7記憶體,採用NVFP4精度,並經過最佳化,算力可達30PFLOPS,能夠為AI推理任務,尤其是長上下文處理(超過100萬個token)和視訊生成,提供了遠超現有系統的性能和token收益。與輝達GB300 NVL72系統相比,這款專用GPU還提供了3倍更快的注意力機制,從而提升了AI模型處理更長上下文序列的能力,而且速度不會降低。Rubin CPX與全新NVIDIA Vera Rubin NVL144 CPX平台中的輝達Vera CPU和Rubin GPU協同工作,進行生成階段處理,形成一個完整的高性能分解式服務解決方案。Vera Rubin NVL144 CPX平台可在單機架整合144張Rubin CPX GPU、144張Rubin GPU、36張Vera CPU,提供8EFLOPS的AI性能(NVFP4精度)和100TB的快速記憶體,記憶體頻寬達到1.7PB/s。其AI性能是輝達Vera Rubin NVL144平台的2倍多,是基於Blackwell Ultra的GB300 NVL72機架式系統的7.5倍。從液冷視角來看,NVL144CPX平台整合的Rubin晶片數量更多,單伺服器整合8塊Rubin晶片,對冷板和UQD的需求將會成倍增長,同時對於高功率的CDU需求也會上升。輝達首席財務官科萊特·克雷斯 (Collette Cress) 表示,公司代號為 Rubin 的下一代資料中心級 GPU 和代號為 Vera 的 CPU 已完成流片並進入“晶圓廠”生產階段,這意味著它們的晶片目前由台積電 (TSMC) 生產。該公告表明,輝達面向 AI 的下一代資料中心平台有望於 2026 年推出。科萊特·克雷斯 (Collette Kress) 在公司與財務分析師和投資者的財報電話會議上表示:“Rubin 平台的晶片已投入生產。Vera CPU、Rubin GPU、CX9 Super NIC、NVLink 144 縱向擴展交換機、Spectrum X 橫向擴展和橫向擴展交換機,以及(用於共封裝光學器件的)矽光子處理器。Rubin 平台仍按計畫於明年實現量產。”該晶圓廠擁有 Rubin NVL144 機架規模平台的所有晶片,表明它們已經通過了重要的流片階段,Nvidia 目前正在實驗室中等待它們,以驗證它們是否符合其性能、功耗、成本和其他目標。 (零氪1+1)
輝達深夜突放大招,全新GPU為長上下文推理而生
效率最高可達現有旗艦機架的7.5倍。輝達於9月9日正式發佈了一款專為處理海量上下文而打造的新型GPU——NVIDIA Rubin CPX,旨在“以前所未有的速度和效率,賦能百萬級Token的軟體編碼、生成式視訊等複雜AI任務。”這款專用處理器將與NVIDIA Vera CPU及下一代Rubin GPU協同工作,共同構成全新的NVIDIA Vera Rubin NVL144 CPX整合平台。該平台在單個機櫃內即可提供高達8 exaflops的AI算力,性能是當前NVIDIA GB300 NVL72系統的7.5倍,並配備100TB高速記憶體和每秒1.7 PB的記憶體頻寬,為AI推理設定了全新基準。NVIDIA創始人兼首席執行官黃仁勳在發佈會上表示:“Vera Rubin平台將標誌著AI計算前沿的又一次飛躍。正如RTX徹底改變了圖形和物理AI,Rubin CPX是首款專為海量上下文AI打造的CUDA GPU,在這種場景下,模型可以一次性對數百萬token的知識進行推理。”為解決推理瓶頸而生:分解式推理架構與專用加速輝達表示,推理已成為人工智慧複雜性的新前沿。現代模型正演變為能夠進行多步推理、擁有持久記憶體和長上下文的智能體系統,使其能夠處理軟體開發、視訊生成和深度研究等領域的複雜任務。這些工作負載對基礎設施提出了前所未有的要求,在計算、記憶體和網路方面引入了新的挑戰,需要我們從根本上重新思考如何擴展和最佳化推理。在這些挑戰中,為特定類別的工作負載處理海量上下文變得日益關鍵。例如,在軟體開發中,AI系統必須對整個程式碼庫進行推理,維護跨檔案的依賴關係,並理解程式碼倉庫等級的結構——這正將編碼助手從自動補全工具轉變為智能協作者。同樣,長視訊和研究應用要求在數百萬token中保持持續的連貫性和記憶。這些需求正在挑戰當前基礎設施所能支援的極限。輝達認為,AI推理主要分為兩個階段:上下文階段(Context Phase)和生成階段(Generation Phase)。前者是計算密集型,需要高吞吐量處理海量輸入資料;後者是記憶體頻寬密集型,依賴高速資料傳輸逐個生成token。為最佳化效率,NVIDIA採用了“分解式推理”架構,將兩個階段交由最適合的硬體獨立處理。而NVIDIA Rubin CPX正是為加速計算密集的“上下文階段”而設計的專用解決方案。它採用高成本效益的單片式晶片設計,提供高達30 petaflops的NVFP4精度算力,配備128GB GDDR7記憶體,並將注意力(attention)功能速度提升至GB300 NVL72的三倍。此外,它還在單晶片上整合了視訊編解碼器和長上下文推理處理功能,極大地提升了視訊搜尋、高畫質視訊生成等應用的性能。NVIDIA指出,通過這種專用硬體,企業能夠以前所未有的規模創造價值,預計每投入1億美元資本,即可帶來高達50億美元的token收入。行業領導者積極擁抱,軟體生態全面支援新平台已獲得行業創新者的廣泛關注。AI程式碼編輯器開發商Cursor表示,Rubin CPX將帶來“閃電般的程式碼生成速度”,改變軟體開發模式。生成式AI公司Runway認為,新平台是“性能上的一次重大飛躍”,將幫助創作者在視訊工作中獲得前所未有的速度與真實感。致力於軟體工程自動化的AI研究公司Magic也指出,Rubin CPX能極大地加速其處理億級token上下文模型的計算工作負載。Rubin CPX將得到NVIDIA AI技術堆疊的全面支援,包括可高效擴展AI推理的NVIDIA Dynamo平台、NVIDIA Nemotron多模態模型系列以及包含NIM微服務的NVIDIA AI Enterprise企業級軟體平台。NVIDIA Rubin CPX平台預計將於2026年底正式上市。GB300 NVL72系統基準最新測試結果公佈在發佈未來架構的同時,NVIDIA於9月9日公佈的最新MLPerf Inference v5.1行業基準測試結果中,再次彰顯了其在當前AI推理領域的領導地位。本輪測試中,NVIDIA首次提交了基於全新Blackwell Ultra架構(通過GB300 NVL72系統)的成績,並立即刷新了所有新增基準測試的性能記錄,包括Llama 3.1 405B和Whisper等。尤其是在處理高達6710億參數的混合專家模型DeepSeek-R1時,Blackwell Ultra的單GPU性能達到了上一代Hopper架構的約5倍,實現了巨大的性能飛躍。這一成就得益於NVIDIA的全端最佳化能力,包括:廣泛應用NVFP4四位浮點格式進行加速、通過TensorRT-LLM等軟體庫實現先進的模型和KV快取量化,以及為複雜模型開發的全新平行技術。 (半導體產業縱橫)